
Modelli markoviani a stati nascosti integrati da modelli lineari generalizzati con un approccio bayesiano
Come possiamo predire le future donazioni dei donatori e il loro comportamento basandoci sulle osservazioni passate di ciascun individuo e le sue informazioni sociodemografiche?

Distribuzione scelta: Poisson troncata
Ideale per variabili che rappresentano conteggi strettamente positivi.
Il modello è analogo a un GLM (GLM-like).1
Adatto quando gli zeri sono strutturalmente assenti nel campione.
\[ \Pr(Y=y \mid Y>0,\ \mu) = \frac{e^{-\mu}\,\mu^{y}/y!}{1-e^{-\mu}}, \qquad y=1,2,\dots \]

Diagramma della struttura di un modello markoviano a stati latenti con a priori bayesiane ed un modello di regressione lineare sulle emissioni
Per la scelta del numero di stati latenti viene utilizzato il Bayesian Information Criterion:
\[ \text{BIC} = k\ln(n) - 2\ln(\widehat L) \qquad \text{BIC-like} = \ln(\widehat L) - \frac{1}{2} k \ln(n) \]
Il numero di stati latenti scelto è di 3.




Effetto COVID-19:

Obiettivo: Ottenere gli stati più probabili per ogni anno e per ogni donatore.
\(z_{1:T}^*\) si ottiene per programmazione dinamica, con un passo base e un passo iterativo.
Inizializzazione: si ricavano le probabilità per stato al tempo iniziale. \[ \delta_1(k)=\log \pi_k(x^\pi) + \log \Pr\bigl(y_1\mid z_1{=}k\bigr), \]
Forward: Ricorsione per \(t=2,\dots,T\) cercando il massimo della probabilità di stare nello stato precedente, \(k\), sommato alla probabilità di spostarsi al tempo \(t\) dallo stato \(k\) allo stato \(j\). Successivamente viene sommata la log-probabilità di emissione. \[ \delta_t(j)=\max_{k}\Big\{\delta_{t-1}(k) + \log A_{k\to j}\!\bigl(x^A_t\bigr)\Big\} + \log \Pr\bigl(y_t\mid z_t{=}j\bigr), \] \[ \psi_t(j) = \arg\max_{k} \Big\{ \delta_{t-1}(k) + \log A_{k\to j}(x^A_t) \Big\} \]
Backtracking: cercare l’argomento che massimiza la funzione \(\delta\). \[ z_T^*=\arg\max_j \delta_T(j),\qquad z_{t-1}^* = \psi_t(z_t^*) \quad (t = T, \dots, 2) \]








Come benchmark è stato utilizzato un GLM Poisson con le medesime covariate: in questo modo l’aumento di performance è attribuibile alla componente latente
Suddivisione del dataset di allenamento e di test stratificato per genere e fascia d’età
Come metrica di confronto è stata scelta l’accuracy: \[ \mathrm{Accuracy} = \frac{1}{N}\sum_{n=1}^N \mathbf{I}\!\big\{\operatorname{round}(\hat y_n) = y_n\big\}, \]
Per il punto di previsione per il modello HMM-GLM sono stati usati due metodi distinti:
considereremo la mistura sugli stati
selezioneremo solo lo stato più probabile in \(T{+}1\) e applicheremo il GLM di quello stato


Il modello HMM-GLM ottiene un’accuracy superiore al GLM (42% vs 28%)
Dal HMM-GLM predetto sul solo stato più probabile emerge una forte massa in 0 (predizione esatta) e, a seguire, in -1 e -2 (sottostima), mostrando una forte asimmetria degli errori
Il modello HMM-GLM che, invece, considera tutti possibili stati futuri e calcola una predizione pesata su di essi, si ottiene un’accuracy leggermente minore ma una simmetria maggiore e l’intervallo \([-1, 1]\) contiene all’incirca l’80% degli errori
La maggior parte degli errori del GLM è tra -1 e 1 con dispersione più simmetrica
Dataset pulito e con un alto numero di osservazioni in confronto con il numero di covariate disponibili
Il modello esegue un raggruppamento dinamico per ciascun anno: adattandosi al complesso e mutabile comportamento umano
Il modello è riuscito a “far parlare” le variabili, svelando pattern nascosti, più complessi e difficilmente ottenibili
Mancanza di informazioni socio-demografiche sui donatori
Lo studio è stato limitato alle donazioni di sangue, scartando in principio gli altri tipi di donazione, come il plasma.
I donatori sono stati filtrati, prendendo solo donatori compresi tra i 18 e i 70 anni d’età, ovvero in età donativa.
Integrazione di ulteriori covariate, come l’informazione se il donatore avesse in passato effettuato altri tipi di donazione. Ciò porterebbe probabilmente a un quarto stato: i “super-donatori”.
Avendo a disposizione i dati di diversi centri trasfusionali, si potrebbe condurre un’analisi su dati panel, prendendo diverse informazioni sulla popolazione residente, come la percentuale di studenti, lavoratori, pensionati, …
L’introduzione di prior anche sulle altre componenti del modello, come i coefficienti delle emissioni.
“All models are wrong, but some are useful.”
— George Box

Università degli Studi di Trieste